FAT·CAT

简介

robots. txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址

robots. txt 文件的限制

并非所有搜索引擎都支持 robots. txt 规则。
不同的抓取工具会以不同的方式解析语法。
如果其他网站上有链接指向被 robots. txt 文件屏蔽的网页，则此网页仍可能会被编入索引。

NOTE

要正确阻止您的网址出现在 Google 搜索结果中，您应为服务器上的文件设置密码保护、使用 noindex meta 标记或响应标头，或者彻底移除网页

robots. txt格式和位置规则：

位置

文件必须命名为 robots. txt。
网站只能有 1 个 robots. txt 文件。
robots. txt 文件必须位于其要应用到的网站主机的根目录下。
robots. txt 文件必须是采用 UTF-8 编码（包括 ASCII）的文本文件。

格式

user-agent: 【必需，每个组需含一个或多个 User-agent 条目】该规则指定了规则适用的自动客户端（即搜索引擎抓取工具）的名称。
disallow: 【每条规则需含至少一个或多个 disallow 或 allow 条目】您不希望用户代理抓取的目录或网页（相对于根网域而言）。
allow: 【每条规则需含至少一个或多个 disallow 或 allow 条目】上文中提到的用户代理可以抓取的目录或网页（相对于根网域而言）。
sitemap: 【可选，每个文件可含零个或多个 sitemap 条目】相应网站的站点地图的位置。站点地图网址必须是完全限定的网址；

xml

# Example 1: Block only Googlebot


<NolebasePageProperties />




User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /

Sitemap: https://example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap.xml

实用的 robots.txt 规则

实用规则
禁止抓取整个网站	请注意，在某些情况下，Google 即使未抓取网站中的网址，仍可能将其编入索引。注意：这不适用于各种 AdsBot 抓取工具，此类抓取工具必须明确指定。 User-agent: * Disallow: /
禁止抓取某一目录及其内容	在目录名后添加一道正斜线，即可禁止抓取整个目录。注意：请勿使用 robots.txt 禁止访问私密内容；请改用正确的身份验证机制。对于 robots.txt 文件所禁止抓取的网址，Google 仍可能会在不进行抓取的情况下将其编入索引；另外，由于 robots.txt 文件可供任何人随意查看，因此可能会泄露您的私密内容的位置。 User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
仅允许某一抓取工具访问网站内容	只有 `googlebot-news` 可以抓取整个网站。 User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
允许除某一抓取工具以外的其他所有抓取工具访问网站内容	`Unnecessarybot` 不能抓取相应网站，所有其他漫游器都可以。 User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
禁止抓取某一网页	例如，禁止抓取位于 `https://example.com/useless_file.html` 的 `useless_file.html` 页面和 `junk` 目录中的 `other_useless_file.html`。 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
禁止抓取除子目录以外的整个网站	抓取工具只能访问 `public` 子目录。 User-agent: * Disallow: / Allow: /public/
禁止 Google 图片访问某一特定图片	例如，禁止访问 `dogs.jpg` 图片。 User-agent: Googlebot-Image Disallow: /images/dogs.jpg
禁止 Google 图片访问您网站上的所有图片	如果无法抓取图片和视频，则 Google 无法将其编入索引。 User-agent: Googlebot-Image Disallow: /
禁止抓取某一特定文件类型的文件	例如，禁止抓取所有 `.gif` 文件。 User-agent: Googlebot Disallow: /*.gif$
禁止抓取整个网站，但允许 `Mediapartners-Google` 访问内容	实施此规则会阻止您的网页显示在搜索结果中，但 `Mediapartners-Google` 网页抓取工具仍能分析这些网页，以确定要向访问您网站的用户显示哪些广告。 User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
使用 `*` 和 `$` 通配符匹配以特定字符串结尾的网址	例如，禁止抓取所有 `.xls` 文件。 User-agent: Googlebot Disallow: /*.xls$

简介 ​

robots. txt 文件的限制 ​

robots. txt格式和位置规则： ​

位置 ​

格式 ​

实用的 robots.txt 规则 ​

简介

robots. txt 文件的限制

robots. txt格式和位置规则：

位置

格式

实用的 robots.txt 规则